Análise de Sobrevivência e Confiabilidade
Sobrevida - Fiocruz: AIDS Clássico

Ariane Hayana Thomé de Farias
João Claudio da Silva Araujo Lobato

Em: 14/04/2022 | Manaus/AM/BR

Dados oriundos de:
Carvalho MS, Andreozzi VL, Codeço CT, Campos DP, Barbosa MTS, Shimakura SE. Análise de sobrevivência: teoria e aplicações em saúde. Rio de Janeiro: Editora FIOCRUZ, 2011.

Introdução

Os dados são provenientes de coortes hospitalares de pacientes portadores de HIV. A primeira coorte é constituída dos pacientes portadores de HIV atendidos entre 1986 e 2000 no Instituto de Pesquisa Clínica Evandro Chagas (Ipec/Fiocruz). Dessa coorte, obteve-se uma amostra de 193 indivíduos que foram diagnosticados como portadores de Aids (critério CDC 1993) durante o período de acompanhamento.

Dicionário de variáveis

Para conhecermos as informações contidas na coorte em estudo, abaixo segue a lista de variáveis e suas respectivas descrições. Note que o banco de dados possui 15 variáveis das quais, temos: id, ini, fim, tempo, status, sexo, escola, idade, risco, acompan, obito, anotrat, tratam, doenca, propcp.

Variável Descrição
id Identificação do paciente
ini Data do diagnóstico da Aids (em dias)
fim Data do óbito (ou perda do paciente)
tempo Dias de sobrevivência do diagnóstico até o óbito
status 0 = censura
1 = óbito
sexo F = feminino
M = masculino
escola 0 = sem escolaridade
1 = ensino fundamental
2 = ensino médio
3 = ensino superior
idade Idade na data do diagnóstico de Aids (20 a 68 anos)
risco 0 = homossexual masculino
1 = usuário de drogas injetáveis
2 = transfusão
3 = contato sexual com HIV+
5 = hétero c/múltiplos parceiros
6 = dois fatores de risco
acompan Acompanhamento:
0 = ambulatorial/hospital-dia
1 = internação posterior
2 = internação imediata
obito S = óbito
N = não óbito
I = ignorado
anotrat Ano do início do tratamento (1990 a 2000),
sendo 9 = sem tratamento
tratam Terapia antirretroviral:
0 = nenhum
1 = mono
2 = combinada
3 = potente
doenca De apresentação:
1 = pcp
2 = pcp pulmonar
3 = pcp disseminada
4 = toxoplasmose
5 = sarcoma
7 = outra doença
8 = candidíase
9 = duas doenças
10 = herpes
99 = definido por cd4
propcp Profilaxia para pneumocistis:
0 = sem profilaxia
2 = primária
3 = secundária
4 = ambas

Desta forma, podemos então visualizar previamente os dados:

Observa-se que o paciente 1 é do sexo masculino, tem 34 anos e foi acompanhado por 852 dias até a data do seu óbito.


Conforme podemos observar, existem alguns dados faltantes na base de dados. Também percebe-se que algumas informações precisam ser manipuladas conforme os objetivos do estudo. Segundo os autores,

  • Na variável doença o 9 significa duas doenças definidoras e 99 significa que o caso foi definido por CD4, por isso NÃO devem ser alterados.
  • Na variável anotrat 9 indica a ausência de tratamento (paciente morre antes dos antirretrovirais) e não missing.

Portanto, seguindo as observações mencionadas anteriormente, fez-se a substituição das informações ignoradas codificadas com 9/99 ou I por NA.

Outra parte importante na preparação dos dados consistiu em identificar se a classificação estava correta. Assim, identificamos que algumas variáveis estavam classificadas como numéricas em vez de categóricas, fez-se então alterações nos dados conforme codificação correta das variáveis, obtendo-se os seguintes resultados:

Rows: 193
Columns: 15
$ id      <int> 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18,~
$ ini     <int> 1243, 2800, 1250, 1915, 2653, 3, 36, 1, 544, 71, 946, 802, 266~
$ fim     <int> 2095, 2923, 2395, 4670, 4770, 332, 96, 152, 2107, 1318, 1030, ~
$ tempo   <int> 852, 123, 1145, 2755, 2117, 329, 60, 151, 1563, 1247, 84, 214,~
$ status  <int> 1, 1, 1, 0, 0, 0, 1, 1, 1, 1, 1, 1, 0, 1, 1, 1, 1, 1, 1, 1, 0,~
$ sexo    <fct> M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M, M,~
$ escola  <fct> 3, 2, NA, NA, NA, NA, NA, 0, 2, 2, 1, 2, NA, NA, 1, 3, 2, 1, 2~
$ idade   <int> 34, 38, 32, 43, 40, 34, 27, 22, 44, 23, 40, 33, 41, 35, 45, 35~
$ risco   <fct> 0, 6, 0, 6, 0, 0, 0, 6, NA, 0, 0, 0, NA, 1, 0, 0, 0, 0, 0, 0, ~
$ acompan <fct> 1, 1, 1, 0, 1, 1, 2, 2, 0, 2, 1, 1, 1, 1, 2, 0, 1, 1, 1, 0, 1,~
$ obito   <fct> S, S, S, N, N, NA, S, S, S, S, S, S, NA, S, S, S, S, S, S, S, ~
$ anotrat <int> 1991, NA, 1992, 1992, 1992, NA, NA, NA, NA, NA, NA, NA, NA, 19~
$ tratam  <fct> 1, 0, 1, 1, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 1, 0, 1, 0,~
$ doenca  <fct> 4, 7, 3, 10, 5, 7, 7, 3, 10, 3, 3, 3, 4, 1, 5, 7, 99, 99, 10, ~
$ propcp  <fct> 3, 4, 4, 4, 4, 0, 0, 0, 0, 4, 0, 4, 0, 4, 2, 4, 4, 4, 0, 4, 0,~

Com isso, podemos expressar a formulação no formato clássico e de contagem no contexto da análise de sobrevivência:

  • No formato clássico, será:
  [1]  852   123  1145  2755+ 2117+  329+   60   151  1563  1247    84   214 
 [13]   25+ 1348   158   555   408  1116   998  1125   944+   54   151   855 
 [25]  116    80+ 1757+  194   183    37   237+ 1506   168+  134   803+   18 
 [37]  371   173   688   163  3178+   29    50+  887   516   645   310   204 
 [49] 1344+ 1261   285    83   150  1307+ 1076+ 1226   865+  811  2898    80 
 [61]  967   618   235  2236+  152   892    81+ 1085  1073+ 1615+   35   290 
 [73] 1780+ 3228+   52   733  3213+ 1983  2304+  572    21  1272+ 1646+  304 
 [85]  418   854  2973+   40   850  1139   323  1507+ 2717+ 1735+  388+  145 
 [97]  905   927  1027+  631  2495+ 1331+  623  2568+ 2013+  721  1952+  397 
[109]  254  1630+ 1523+  146+  108  1835+  499   333   202+ 2437+ 1015  2138+
[121]   22  2090+  179  2439+ 1063+   85+  343+ 2215+  259  2258+ 1371    39 
[133] 2371+  975+  952  2492+ 1478+  295+  992  1011+  644   426   537+ 1454+
[145] 1869+  714+ 1310+ 2084+ 1918+ 1649+  290+ 1685+ 1348+  652+ 1384+ 1471+
[157] 1512+  378+ 1352+  419  1426+ 1488+ 1315+  643+ 1197+ 1343+ 1176+  944 
[169]  340   881+  915+  948+  985+ 1242+  955+  987+  899+ 1056+  775   785+
[181]  731+   16   680+   21+  444+  524+  217+  440+  470+  390+  344+  578+
[193]  504+
  • No formato de processo de contagem:
  [1] (1243,2095]  (2800,2923]  (1250,2395]  (1915,4670+] (2653,4770+]
  [6] (   3, 332+] (  36,  96]  (   1, 152]  ( 544,2107]  (  71,1318] 
 [11] ( 946,1030]  ( 802,1016]  ( 266, 291+] (1544,2892]  (  57, 215] 
 [16] (1270,1825]  (2753,3161]  ( 940,2056]  ( 393,1391]  (1000,2125] 
 [21] ( 238,1182+] ( 423, 477]  ( 206, 357]  ( 480,1335]  ( 226, 342] 
 [26] ( 249, 329+] (3052,4809+] (1802,1996]  (1395,1578]  ( 354, 391] 
 [31] ( 493, 730+] (1113,2619]  ( 638, 806+] ( 655, 789]  (1189,1992+]
 [36] ( 943, 961]  (1715,2086]  ( 792, 965]  (1037,1725]  ( 820, 983] 
 [41] ( 884,4062+] (2262,2291]  (1121,1171+] (1131,2018]  ( 878,1394] 
 [46] (1316,1961]  (1107,1417]  (1190,1394]  ( 393,1737+] (1274,2535] 
 [51] (1172,1457]  (2360,2443]  (2074,2224]  (1019,2326+] ( 605,1681+]
 [56] (1915,3141]  (3948,4813+] (1314,2125]  (1502,4400]  (1347,1427] 
 [61] (1379,2346]  (2352,2970]  (2625,2860]  (2586,4822+] (1406,1558] 
 [66] (1466,2358]  (3314,3395+] (3413,4498]  (3712,4785+] (3207,4822+]
 [71] (1592,1627]  (1537,1827]  (3018,4798+] (1555,4783+] (1541,1593] 
 [76] (1589,2322]  (1609,4822+] (1682,3665]  (2465,4769+] (1243,1815] 
 [81] (1667,1688]  (1605,2877+] (3157,4803+] (2066,2370]  (1929,2347] 
 [86] (2216,3070]  (1809,4782+] (1670,1710]  (1983,2833]  (2883,4022] 
 [91] (1766,2089]  (3313,4820+] (1977,4694+] (3087,4822+] (2286,2674+]
 [96] (1877,2022]  (1852,2757]  (1549,2476]  (3795,4822+] (2475,3106] 
[101] (2310,4805+] (2870,4201+] (1935,2558]  (2199,4767+] (2800,4813+]
[106] (2990,3711]  (2857,4809+] (3586,3983]  (2143,2397]  (3124,4754+]
[111] (3276,4799+] (2208,2354+] (2209,2317]  (2976,4811+] (2626,3125] 
[116] (3838,4171]  (2314,2516+] (2311,4748+] (2280,3295]  (2684,4822+]
[121] (2454,2476]  (2713,4803+] (2311,2490]  (2370,4809+] (3756,4819+]
[126] (2565,2650+] (2599,2942+] (2553,4768+] (2601,2860]  (2553,4811+]
[131] (2726,4097]  (2739,2778]  (2447,4818+] (3830,4805+] (2429,3381] 
[136] (2311,4803+] (3299,4777+] (4510,4805+] (2384,3376]  (3749,4760+]
[141] (2676,3320]  (2985,3411]  (4192,4729+] (3159,4613+] (2921,4790+]
[146] (4078,4792+] (2934,4244+] (2645,4729+] (2857,4775+] (3173,4822+]
[151] (4509,4799+] (3082,4767+] (3465,4813+] (3188,3840+] (3271,4655+]
[156] (3276,4747+] (3287,4799+] (4439,4817+] (3446,4798+] (3305,3724] 
[161] (3391,4817+] (3307,4795+] (3425,4740+] (4117,4760+] (3612,4809+]
[166] (3479,4822+] (3572,4748+] (3796,4740]  (3527,3867]  (3921,4802+]
[171] (3798,4713+] (3808,4756+] (3772,4757+] (3557,4799+] (3867,4822+]
[176] (3594,4581+] (3923,4822+] (3733,4789+] (4019,4794]  (4033,4818+]
[181] (4040,4771+] (4053,4069]  (4137,4817+] (4208,4229+] (4362,4806+]
[186] (4279,4803+] (4593,4810+] (4320,4760+] (4343,4813+] (4419,4809+]
[191] (4406,4750+] (4199,4777+] (4301,4805+]

Veja que, observando-se as saídas nos dois formatos, se formos analisar o último paciente (o 193º), podemos inferir algumas informações:

  • Processo clássico: 504 dias de acompanhamento;
  • Processo de contagem: início do acompanhamento no 4301º dia e fim no 4805º dia do estudo (504 dias do processo clássico).
    • Status: É censurado no seu último dia de acompanhamento.

Análise exploratória e descritiva

Sumarização e medidas

Para conhecer o perfil dos pacientes, bem como realizar uma análise exploratória e descritiva dos dados, abaixo foram selecionados alguns pontos importantes.

Selecione a variável desejada 🔽

Tempo

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
   16.0   290.0   852.0   938.2  1348.0  3228.0 

Para a variável Tempo, podemos verificar que o tempo mínimo de sobrevivência no período considerado do diagnóstico até o óbito é de 16 dias e o tempo máximo de 3.228 dias. Ao avaliarmos a média e mediana, percebe-se que correspondem a 938,2 e 852,0, respectivamente.


Idade

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  20.00   30.00   35.00   36.55   43.00   68.00 

Para a variável Idade, podemos verificar que a idade mínima dos pacientes é de 20 anos e a máxima de 68 anos. Ao avaliarmos a média e mediana, percebe-se que a média de idade é de 36,55 e a idade mediana de 35 anos.


Distribuição das idades dos pacientes por gênero

Outros

A sumarização e medidas das demais variáveis estão dispostas a seguir.

       id           ini            fim           tempo            status      
 Min.   :  1   Min.   :   1   Min.   :  96   Min.   :  16.0   Min.   :0.0000  
 1st Qu.: 49   1st Qu.:1406   1st Qu.:2095   1st Qu.: 290.0   1st Qu.:0.0000  
 Median : 97   Median :2454   Median :3711   Median : 852.0   Median :0.0000  
 Mean   : 97   Mean   :2397   Mean   :3335   Mean   : 938.2   Mean   :0.4663  
 3rd Qu.:145   3rd Qu.:3314   3rd Qu.:4790   3rd Qu.:1348.0   3rd Qu.:1.0000  
 Max.   :193   Max.   :4593   Max.   :4822   Max.   :3228.0   Max.   :1.0000  
                                                                              
 sexo     escola       idade        risco    acompan  obito       anotrat    
 F: 49   0   :59   Min.   :20.00   0   :87   0:57    N   :80   Min.   :1990  
 M:144   1   :44   1st Qu.:30.00   1   : 9   1:99    S   :92   1st Qu.:1993  
         2   :55   Median :35.00   2   : 7   2:37    NA's:21   Median :1995  
         3   :24   Mean   :36.55   3   :30                     Mean   :1995  
         NA's:11   3rd Qu.:43.00   5   :16                     3rd Qu.:1997  
                   Max.   :68.00   6   : 7                     Max.   :2000  
                                   NA's:37                     NA's   :44    
 tratam      doenca   propcp 
 0: 44   99     :67   0: 38  
 1:100   3      :31   2: 24  
 2: 35   10     :25   3:  3  
 3: 14   7      :17   4:128  
         1      :12          
         8      :12          
         (Other):29          

Algumas informações importantes cabem destaque:

  • Do total de 193 pacientes, \(74,6\%\) é do sexo masculino e \(25,4\%\) do sexo feminino;

  • A maioria dos pacientes não tinha escolaridade (\(30,6\%\)) ou cursaram até o ensino médio (\(28,5\%\)). Do total de pacientes, apenas \(12,4\%\) tinham ensino superior;

  • Entre os pacientes em situação de risco, 133 foram infectados por via sexual, dentre os quais 87 eram homossexual masculino, 30 tiveram contato sexual com HIV+ e 16 pacientes eram héteros com múltiplos parceiros;

  • O estudo realizou o acompanhamento dos pacientes durante \(4.822\) dias (conforme o valor máximo apresentado na tabela fim, que corresponde a data do óbito ou perda do paciente);

  • Dos 193 pacientes, 80 não evoluíram a óbito, 21 foram ignorados e 92 alcançaram o desfecho (óbito).


Tabelas

Abaixo encontram-se algumas tabela com informações adicionais:

Selecione a tabela desejada 🔽

Frequência da escolaridade

Escolaridade Qtd.
Sem escolaridade 0 59
Ensino fundamental 1 44
Ensino médio 2 55
Ensino superior 3 24
Não informado NA 11
Total 193

Conforme apresentado, a maioria dos pacientes estudou até o ensino médio. Somente 24 possuíam nível superior e 11 não informaram a escolaridade.

Frequência dos tratamentos

Tratamentos Qtd.
Nenhum 0 44
Mono 1 100
Combinada 2 35
Potente 3 14
Total 193

No levantamento sobre as frequências nos tratamentos, 44 não tiveram nenhum tratamento e 14 tiveram o tratamento Potente. A maioria dos pacientes foram tratados com o tratamento do tipo Mono (100 pacientes, ao todo).

Número de eventos e censuras observadas

Status Qtd.
Censura 0 103
Óbito 1 90
Total 193

Como podemos observar, a maioria dos pacientes foram censurados (103) e 90 alcançaram o desfecho (óbito).

Número de pacientes por escolaridade e por sexo

Escolaridade Feminino Masculino
Sem escolaridade 0 24 35
Ensino fundamental 1 11 33
Ensino médio 2 12 43
Ensino superior 3 1 23
Não informado NA 1 10
Total 49 144

Na comparação entre os sexos e escolaridade dos pacientes, nota-se que a maioria dos pacientes, em sua totalidade, não possui escolaridade e neste cenário, a maioria são homens. Nos demais níveis de escolaridade, os homens também são a maioria, com um total de 144 homens e 49 mulheres, sendo que apenas uma paciente tinha nível superior.

Estimativas de Sobrevivência

Estimativas de Kaplan-Meier

Estimativas de Nelson-Aalen


Com os gráficos acima é possível notar que as estimativas de Kaplan-Meier e Nelson Aalen não apresentam uma grande diferença. Em ambos os casos, para períodos de até 1.000 dias, a probabilidade de sobrevivência se mantém acima de 50%. É perceptível também que, entre 2.000 e 2.700 dias, a probabilidade de sobrevivência parece passar por uma estagnação, tendo 42,23% de sobrevivência. No entanto quando expandimos o horizonte de dias, para uma quantidade maior que 2.700, as probabilidades de sobrevivência caem drasticamente, sendo inferior a 35%.


Kaplan-Meier Nelson Aalen
Tempo Médio 1603,062 1607,757
Tempo Mediano 1247 1247


Com relação aos tempos médio e tempos medianos, é possível notar que há uma diferença apenas entre o tempo médio, com as estimativas de Kaplan-Meier apresentando uma quantidade de dias inferior à de Nelson Aalen, sendo 1603,062 e 1607,757 dias, respectivamente.

Estimação Paramétrica

Agora partiremos para os ajustes dos modelos paramétricos com distribuição Exponencial, Weibull e Log-Normal. Mas antes, vamos conhecer um pouco sobre estas distribuíções.

A distribuição exponencial possui a seguinte função densidade de probabilidade:

Esta distribuição é muito usada para modelar tempo de falha de um equipamento.

O modelo Weibull possui a seguinte função densidade de probabilidade:

Em geral, suas aplicações visam a determinação do tempo de vida médio e da taxa de falhas em função do tempo da população analisada.

E, por fim, o modelo Log-Normal possui a seguinte função densidade de probabilidade:

Os ajustes para as três distribuíções podem ser vistas abaixo.

\[ Exponencial:\hat{S_e(t)}= exp[-t/2017.756]\] \[Weibull: \hat{S_w}(t)=exp-(t/1993.215 * t)^{1.28131}\] \[LogNormal:\hat{S_l}=\Phi[\frac{-log(t)- \ 7.2247665 }{0.9505452 }]\]

Seleção de Modelos

Análise Gráfica

Linearização

Por meio do teste gráfico realizado acima vemos que o modelo Log-Normal está melhor ajustado, se encontrando mais próximo da reta.

[1] 0.001183409
[1] 0.02639434
[1] 0.9361311

A qualidade do ajuste foi verificada utilizando o teste da razão de verossimilhanças entre os 3 modelos com os ajustes com as distruições Exponencial, Weibull e Log-Normal sob \(\mathcal{H}_0\) sendo a Gama Generalizada}, sob \(\mathcal{H}_1\). Os p-valores resultantes foram de \(0,001183409\) para o teste com modelo exponencial, \(0,02639434\) para o modelo Weibull e \(0,9361311\) para a Log-Normal , assim, o modelo Log-Normal está melhor ajustado ao nível de significância de \(5\%\). assim como vimos pela análise gráfica.

Tempo médio e mediano

Assim partiremos para o calculo do Tempo Médio e Tempo Médiano de vida do isolador. Seguindo as propridades da Distribuição Log-Normal temos que:

\[E(T)=exp(7.2671 + 0.6334^2/2)\] e

\[Mediana=exp(7.2671) \]

Logo, as estimativas para o tempo médio e mediano são respectivamente:

Log - Normal
Tempo Médio 1750,572
Tempo Mediano 1432,39

Dado a tabela acima, temos que, modelando através da distribuíção Log-Normal, os tempos médio e medianos são de 1751 e 1432 dias, respectivamente.